我们提出了EasyRec,这是一个易于使用,可扩展和高效的推荐框架,用于构建工业推荐系统。我们的EasyRec框架在以下方面是优越的:首先,EasyRec采用模块化和可插入的设计模式来减少建立定制模型的努力;其次,EasyRec实现了超参数优化和特征选择算法,以自动提高模型性能;第三,EasyRec应用在线学习,以快速适应不断变化的数据分布。该代码发布:https://github.com/alibaba/easyrec。
translated by 谷歌翻译
数据清洁,体系结构和损失功能设计是导致高性能面部识别的重要因素。以前,研究社区试图提高每个单个方面的性能,但未能在共同搜索所有三个方面的最佳设计时提出统一的解决方案。在本文中,我们首次确定这些方面彼此紧密结合。实际上,优化各个方面的设计实际上极大地限制了性能并偏向算法设计。具体而言,我们发现最佳模型体系结构或损耗函数与数据清洁紧密相结合。为了消除单一研究研究的偏见并提供对面部识别模型设计的总体理解,我们首先仔细设计了每个方面的搜索空间,然后引入了全面的搜索方法,以共同搜索最佳数据清洁,架构和损失功能设计。在我们的框架中,我们通过使用基于创新的增强学习方法来使拟议的全面搜索尽可能灵活。对百万级面部识别基准的广泛实验证明了我们新设计的搜索空间在每个方面和全面搜索的有效性。我们的表现要优于为每个研究轨道开发的专家算法。更重要的是,我们分析了我们搜索的最佳设计与单个因素的独立设计之间的差异。我们指出,强大的模型倾向于通过更困难的培训数据集和损失功能进行优化。我们的实证研究可以为未来的研究提供指导,以实现更健壮的面部识别系统。
translated by 谷歌翻译
由于安全问题,自动驾驶汽车的大规模部署已不断延迟。一方面,全面的场景理解是必不可少的,缺乏这种理解会导致易受罕见但复杂的交通状况,例如突然出现未知物体。但是,从全球环境中的推理需要访问多种类型的传感器以及多模式传感器信号的足够融合,这很难实现。另一方面,学习模型中缺乏可解释性也会因无法验证的故障原因阻碍安全性。在本文中,我们提出了一个安全增强的自主驾驶框架,称为可解释的传感器融合变压器(Interfuser),以完全处理和融合来自多模式多视图传感器的信息,以实现全面的场景理解和对抗性事件检测。此外,我们的框架是从我们的框架中生成的中间解释功能,该功能提供了更多的语义,并被利用以更好地约束操作以在安全集内。我们在Carla基准测试中进行了广泛的实验,我们的模型优于先前的方法,在公共卡拉排行榜上排名第一。
translated by 谷歌翻译
CutMix是一种流行的增强技术,通常用于训练现代卷积和变压器视觉网络。它最初旨在鼓励卷积神经网络(CNN)更多地关注图像的全球环境,而不是本地信息,从而大大提高了CNN的性能。但是,我们发现它对自然具有全球接收领域的基于变压器的体系结构的好处有限。在本文中,我们提出了一种新型的数据增强技术图,以提高视觉变压器的性能。 TokenMix通过将混合区分为多个分离的零件,将两个图像在令牌级别混合。此外,我们表明,Cutmix中的混合学习目标是一对地面真相标签的线性组合,可能是不准确的,有时是违反直觉的。为了获得更合适的目标,我们建议根据预先训练的教师模型的两个图像的基于内容的神经激活图分配目标得分,该图像不需要具有高性能。通过大量有关各种视觉变压器体系结构的实验,我们表明我们提出的TokenMix可以帮助视觉变形金刚专注于前景区域,以推断班级并增强其稳健性,以稳定的性能增长。值得注意的是,我们使用 +1%Imagenet TOP-1精度改善DEIT-T/S/B。此外,TokenMix的训练较长,在Imainet上获得了81.2%的TOP-1精度,而DEIT-S训练了400个时代。代码可从https://github.com/sense-x/tokenmix获得。
translated by 谷歌翻译
最近,变压器和多层感知器(MLP)体系结构在各种视觉任务上取得了令人印象深刻的结果。但是,如何有效地结合这些操作员形成高性能混合视觉体系结构仍然是一个挑战。在这项工作中,我们通过提出一种新型的统一体系结构搜索方法来研究卷积,变压器和MLP的可学习组合。我们的方法包含两个关键设计,以实现高性能网络的搜索。首先,我们以统一的形式对截然不同的可搜索运算符进行建模,从而使操作员能够用相同的配置参数进行表征。这样,总体搜索空间规模大大减少,总搜索成本变得负担得起。其次,我们提出上下文感知的倒数采样模块(DSM),以减轻不同类型的操作员之间的差距。我们提出的DSM能够更好地适应不同类型的操作员的功能,这对于识别高性能混合体系结构很重要。最后,我们将可配置的运算符和DSM集成到统一的搜索空间中,并使用基于增强学习的搜索算法进行搜索,以充分探索操作员的最佳组合。为此,我们搜索一个基线网络并扩大规模,以获得一个名为UNINET的模型系列,该模型的准确性和效率比以前的Convnets和Transformers更好。特别是,我们的UNET-B5在ImageNet上获得了84.9%的TOP-1精度,比效应网络-B7和Botnet-T7分别少了44%和55%。通过在Imagenet-21K上进行预处理,我们的UNET-B6获得了87.4%,表现优于SWIN-L,拖鞋少51%,参数减少了41%。代码可在https://github.com/sense-x/uninet上找到。
translated by 谷歌翻译
在这项研究中,我们提出了混合图像建模(MixMim),这是一种适用于各种分层视觉变压器的简单但有效的MIM方法。现有的MIM方法用特殊的掩码符号替换输入令牌的随机子集,并旨在从损坏的图像中重建原始图像令牌。但是,我们发现,由于较大的掩蔽率(例如,Beit中的40%),使用蒙版符号会大大减慢训练并引起训练 - 不一致的不一致。相比之下,我们用另一个图像的可见令牌(即创建混合图像)代替一个图像的蒙版令牌。然后,我们进行双重重建以从混合输入中重建原始的两个图像,从而显着提高效率。虽然MixMim可以应用于各种体系结构,但本文探讨了更简单但更强的层次变压器,并使用MixMim -B,-L和-H缩放。经验结果表明,混合mim可以有效地学习高质量的视觉表示。值得注意的是,具有88M参数的MixMIM-B通过预处理600个时期的Imagenet-1k上的TOP-1精度达到了85.1%的TOP-1精度,在MIM方法中为具有可比模型尺寸(例如VIT-B)的神经网络创造了新的记录。此外,其在其他6个数据集上的传输性能显示MixMim比以前的MIM方法更好。代码可从https://github.com/sense-x/mixmim获得。
translated by 谷歌翻译
由于视频帧之间的庞大本地冗余和复杂的全局依赖性,这是一种具有挑战性的任务。该研究的最近进步主要由3D卷积神经网络和视觉变压器推动。虽然3D卷积可以有效地聚合本地上下文来抑制来自小3D邻域的本地冗余,但由于接收领域有限,它缺乏捕获全局依赖性的能力。或者,视觉变压器可以通过自我关注机制有效地捕获远程依赖性,同时具有在每层中所有令牌之间的盲目相似性比较来降低本地冗余的限制。基于这些观察,我们提出了一种新颖的统一变压器(统一机),其以简洁的变压器格式无缝地整合3D卷积和时空自我关注的优点,并在计算和准确性之间实现了优选的平衡。与传统的变形金刚不同,我们的关系聚合器可以通过在浅层和深层中学习本地和全球令牌亲和力来解决时空冗余和依赖性。我们对流行的视频基准进行了广泛的实验,例如动力学-400,动力学-600,以及某种东西 - 某种东西 - 某种东西 - 某种东西 - 某种东西。只有ImageNet-1K预磨料,我们的统一器在动力学-400 /动力学-600上实现了82.9%/ 84.8%的前1个精度,同时需要比其他最先进的方法更少的gflops。对于某些东西而言,我们的制服分别实现了新的最先进的表演,分别实现了60.9%和71.2%的前1个精度。代码可在https://github.com/sense-x/uniformer获得。
translated by 谷歌翻译
最近建议的MaskFormer \ Cite {MaskFormer}对语义分割的任务提供了刷新的透视图:它从流行的像素级分类范例转移到蒙版级分类方法。实质上,它生成对应于类别段的配对概率和掩码,并在推理的分割映射期间结合它们。因此,分割质量依赖于查询如何捕获类别的语义信息及其空间位置。在我们的研究中,我们发现单尺度特征顶部的每个掩模分类解码器不足以提取可靠的概率或掩模。对于挖掘功能金字塔的丰富语义信息,我们提出了一个基于变压器的金字塔融合变压器(PFT),用于多尺度特征顶部的每个掩模方法语义分段。为了有效地利用不同分辨率的图像特征而不会产生过多的计算开销,PFT使用多尺度变压器解码器,具有跨尺度间间的关注来交换互补信息。广泛的实验评估和消融展示了我们框架的功效。特别是,与屏蔽Former相比,我们通过Reset-101c实现了3.2 miou改进了Reset-101c。此外,在ADE20K验证集上,我们的Swin-B骨架的结果与单尺度和多尺寸推断的屏蔽骨架中的较大的Swin-L骨架相匹配,分别实现54.1 miou和55.3 miou。使用Swin-L骨干,我们在ADE20K验证集中实现了56.0 Miou单尺度结果和57.2多尺度结果,从而获得数据集的最先进的性能。
translated by 谷歌翻译
随着日常生活中的自然语言处理(NLP)的部署扩大,来自NLP模型的继承的社会偏见变得更加严重和有问题。以前的研究表明,在人生成的Corpora上培训的单词嵌入式具有强烈的性别偏见,可以在下游任务中产生鉴别结果。以前的脱叠方法主要侧重于建模偏差,并且仅隐含地考虑语义信息,同时完全忽略偏置和语义组件之间的复杂潜在的因果结构。为了解决这些问题,我们提出了一种新的方法,利用了因果推断框架来有效消除性别偏见。所提出的方法允许我们构建和分析促进性别信息流程的复杂因果机制,同时保留单词嵌入中的Oracle语义信息。我们的综合实验表明,该方法达到了最先进的性别脱叠任务。此外,我们的方法在字相似性评估和各种外在下游NLP任务中产生了更好的性能。
translated by 谷歌翻译
部分微分方程(PDES)在科学和工程的许多学科中都是普遍的,难以解决。通常,PDE的闭合形式溶液不可用,数值近似方法是计算昂贵的。 PDE的参数在许多应用中是可变的,例如逆问题,控制和优化,风险评估和不确定性量化。在这些应用程序中,我们的目标是解决参数PDE而不是其中一个实例。我们所提出的方法,称为元 - 自动解码器(MAD),将参数PDES作为元学习问题求解,并利用\ Cite {Park2019DeepsDF}中的自动解码器结构来处理不同的任务/ PDE。从PDE管理方程和边界条件诱导的物理知识损失被用作不同任务的培训损失。疯狂的目标是学习一个良好的模型初始化,可以概括不同的任务,最终使未能学习的任务能够更快地学习。疯狂的灵感来自于(猜想)参数PDE解决方案的低维结构,并从流形学习的角度解释了我们的方法。最后,我们展示了疯狂的力量,虽然广泛的数值研究,包括汉堡等式,拉普尔斯方程和时域麦克斯韦方程。与其他深度学习方法相比,MAD表现出更快的收敛速度而不会失去准确性。
translated by 谷歌翻译